机器学习序列处理Vision TransformerVision Transformer首次成功将 Transformer 架构(原用于 NLP)应用于图像分类任务,挑战了 CNN 在计算机视觉领域的主导地位。 ViT 的成功是深度学习领域方法论的一次重大转变,标志着“大一统”架构(即 Transformer)开始统治 NLP 和 CV 两个领域。 info《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》在 2020 年及之后发表的论文中,谷歌学术总引用次数排名第1。